Model teks-ke-gambar

Model teks-ke-gambar adalah sebuah model pembelajaran mesin yang menerima masukan berupa deskripsi bahasa alami dan menghasilkan sebuah gambar sesuai dengan deskripsi tersebut. Model-model tersebut mulai dikembangkan pada pertengahan 2010-an, sebagai hasil dari kemajuan di pemelajaran dalam. Pada tahun 2022, keluaran dari model teks-ke-gambar seperti DALL-E 2 oleh OpenAI, Imagen oleh Google, Stable Diffusion, dan Midjourney mulai mencapai kualitas seperti foto dan karya seni buatan manusia.

Model teks-ke-gambar secara umum menggabungkan sebuah model bahasa, yang mengubah teks masukan kedalam sebuah representasi laten, dan sebuah model gambar generatif, yang menghasilkan sebuah gambar berdasarkan representasi tersebut. Model yang paling efektif umumnya dilatih di data teks dan gambar berskala besar yang diambil dari web.^[1]

^ Kesalahan pengutipan: Tag <ref> tidak sah; tidak ditemukan teks untuk ref bernama imagen-verge

[imagen-verge-1] Kesalahan pengutipan: Tag <ref> tidak sah; tidak ditemukan teks untuk ref bernama imagen-verge

[1]